Radioecology : Analyse de corpus de publications

Author

Cozic, Solen, Geoffroy, Géraldine

Published

June 15, 2023

1 Objet

La demande porte sur la constitution d’un corpus d’articles contenant le terme “radiocology” dans le titre et sur l’analyse de ce corpus :

  • analyse quantitative : nombre de publications par date, par revue et par type de publication
  • analyse lexicométrique
    • Co-occurrences dans le champ titre
    • Co-occurences avec le terme radioecology dans le titre

Cette note présente seulement des réponses de type programmatiques, deux outils complémentaires de etxt mining en ligne sont aussi présentés à la fin.

Les données brutes sont également téléchargeables depuis cette page (fin de page)

2 Constitution du corpus

2.1 Source Scopus

  1. Extraction (par l’interface web Scopus)
  • Périmètre : radio*ecolog* dans tous les champs et sur la période 1964-2023
  • Requête : ALL ( radio*ecolog* )
  • Nombre de résultats : 13 631 publications
  • Nombre de résultats après traitement : 11 129 publications
  1. Export des champs : ‘Authors’, ‘Title’, ‘Year’, ‘Source title’, ‘DOI’, ‘Document Type’, ‘Source’, ‘Publisher’, ‘Abstract’

2.2 Source Istex

Rappel Istex

Istex est un réservoir national d’archives scientifiques normalisées constitué par 4 opérateurs institutionnels (CNRS, Abes, consortium Couperin et Université de Loraine) suite à l’acquisition centralisée et pérenne de collections retrospectives de littérature scientifique auprès de multiples éditeurs. La plateforme Istex héberge et donne accès à 27 milions de publications, assorties de métadonnées enrichies.

  1. Extraction (par l’API Istex)
  • Périmètre : radio*ecolog* dans tous les champs, filtre sur les docs de type article (beaucoup de bruit sinon)
  • Requête : https://api.istex.fr/document/?q=radio*ecolog* AND genre:article&output=doi,title,abstract,author,publicationDate,genre,host.title&size=6000&extract=metadata[json]
  • Nombre de résultats : 5387 publications
  • Nombre de résultats après traitement : 5349 publications
  1. Export des champs : ‘doi’, ‘title’, ‘publicationDate’, ‘genre’, ‘author.name’, ‘host.title’, ‘corpusName’, ‘Abstract’

2.3 Dédoublonnage et corpus final

En concaténant puis dédoublonnant (sur le DOI et sur le titre) les deux datasets issus de Scopus et Istex, on obtient un corpus de 11 862 publications sur la période 1962-2023

3 Analyse quantitative

3.1 Nombre de publications par année (de publication)

3.1.1 Graphique

3.1.2 Données

Année de publication Nombre de publications
Loading... (need help?)

3.2 Principales revues (Top 20)

3.2.1 Graphique

3.2.2 Données

Revue Nombre de publications
Loading... (need help?)

3.3 Types de document

3.3.1 Graphique

3.3.2 Données

Type de documents Nombre de publications
Loading... (need help?)

4 Analyse lexicométrique sur les titres

4.1 Wordcloud

<matplotlib.image.AxesImage at 0x1c865030280>

Nuage de mots (mots du titre)

4.2 Unigrammes (termes uniques les plus utilisés)

Le graphique ne montre que les 30 termes les plus fréquents

word count
Loading... (need help?)

4.3 Co-occurences (bigrammes)

bigram count
Loading... (need help?)

4.4 Co-occurences du terme radioecolog*

bigram count
Loading... (need help?)

4.5 Visualisation en graphe sur les titres (co-occurrences)

Une visualisation suplémentaire en graphe interactif à partir des co-occurrences dans les titres des publications a été produite avec l’instance en ligne du logiciel VOSwiewer et est accessible ici :

https://nocodefunctions.com/html/vosviewer/index.html?json=data/public/vosviewer_f4ce2da83594d3435b51.json

VOSviewer-screenshot-titres

5 Analyse lexicométrique sur les abstracts

5.1 Wordcloud

<matplotlib.image.AxesImage at 0x1c868ce15a0>

Nuage de mots (mots des abstracts)

5.2 Unigrammes

word count
Loading... (need help?)

5.3 Bi-grammes

bigram count
Loading... (need help?)

5.4 Co-occurrences du terme radioecolog*

bigram count
Loading... (need help?)

5.5 Visualisation en graphe sur les abstracts (co-occurrences)

Une visualisation suplémentaire en graphe interactif à partir des co-occurrences dans les abstracts des publicatiosn a été produite avec l’instance en ligne du logiciel VOSwiewer et est accessible ici :

https://nocodefunctions.com/html/vosviewer/index.html?json=data/public/vosviewer_eb7b4a353b54d705cb3a.json

VOSviewer-screenshot-abstracts

6 Télécharger les données

Trois types de fichiers ont été produits : - un fichier contenant les métadonnées des 11 862 publications - des fichiers contenant la liste des termes uniques et leurs fréquences - dans les mots du titre - dans les mots des abstracts - un fichier contenant la liste de toutes les paires de co-occurrences avec leurs fréquences d’apparition - dans les mots du titre - dans les mots des abstracts

Chaque fichier est disponible en formats .csv et .xlsx.

NB : le 1er fichier abstracts_network.gexf contient les données du réseau formé par les co-occurrences des abstracts structurées selon le format attendu par les outils de visualisation de graphes. Il est ainsi directement importable dans des logiciels tels que Gephi

7 Autres outils de text mining en ligne

Voyant Tools : https://voyant-tools.org/

Nocode functions : https://nocodefunctions.com/index.html

8 Code source

https://github.com/azur-scd/appui_recherche_corpus_radioecology